##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Loading required package: viridisLite
##
## Attaching package: 'scales'
## The following object is masked from 'package:viridis':
##
## viridis_pal
##
## Attaching package: 'purrr'
## The following object is masked from 'package:scales':
##
## discard
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:rio':
##
## export
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
Los datos con los que trabajaremos serán los de INE, específicamente los datos relacionado a violencia intrafamiliar.
Primero tenemos que unir todos los datos recopilados desde el 2013 hasta el 2023, para lograrlo nos topamos con varias dificultades, la primera de esta es que los datos no tienen la misma cantidad de columnas en todos los años como se puede apreciar a continuación.
## column_name data_2013 data_2014 data_2015 data_2016 data_2017
## 1 AGR_ALFAB numeric numeric numeric numeric numeric
## 2 AGR_DEDICA numeric numeric numeric numeric numeric
## 3 AGR_EDAD numeric numeric numeric numeric numeric
## 4 AGR_ESCOLARIDAD numeric numeric numeric numeric numeric
## 5 AGR_EST_CIV numeric numeric numeric numeric numeric
## 6 AGR_GURPET numeric numeric numeric numeric numeric
## 7 AGR_NACIONAL numeric numeric numeric numeric numeric
## 8 AGR_OCUP numeric numeric numeric numeric numeric
## 9 AGR_OTRAS_MUJ numeric numeric numeric numeric numeric
## 10 AGR_OTRAS_N_AS numeric numeric numeric numeric numeric
## 11 AGR_OTROS_HOM numeric numeric numeric numeric numeric
## 12 AGR_OTROS_N_OS numeric numeric numeric numeric numeric
## 13 AGR_SEXO numeric numeric numeric numeric numeric
## 14 AGR_TRABAJA numeric numeric numeric numeric numeric
## 15 AGRESORES_OTROS_TOTAL numeric numeric numeric numeric numeric
## 16 ANO_EMISION numeric numeric numeric numeric numeric
## 17 ARTICULOCODPEN1 <NA> <NA> <NA> <NA> numeric
## 18 ARTICULOCODPEN2 <NA> <NA> <NA> <NA> numeric
## 19 ARTICULOCODPEN3 <NA> <NA> <NA> <NA> numeric
## 20 ARTICULOCODPEN4 <NA> <NA> <NA> <NA> numeric
## 21 ARTICULOTRAS1 <NA> <NA> <NA> <NA> numeric
## 22 ARTICULOTRAS2 <NA> <NA> <NA> <NA> numeric
## 23 ARTICULOTRAS3 <NA> <NA> <NA> <NA> numeric
## 24 ARTICULOTRAS4 <NA> <NA> <NA> <NA> numeric
## 25 ARTICULOVCM1 <NA> <NA> <NA> <NA> numeric
## 26 ARTICULOVCM2 <NA> <NA> <NA> <NA> numeric
## 27 ARTICULOVCM3 <NA> <NA> <NA> <NA> numeric
## 28 ARTICULOVCM4 <NA> <NA> <NA> <NA> numeric
## 29 ARTICULOVIF1 <NA> <NA> <NA> <NA> numeric
## 30 ARTICULOVIF2 <NA> <NA> <NA> <NA> numeric
## 31 ARTICULOVIF3 <NA> <NA> <NA> <NA> numeric
## 32 ARTICULOVIF4 <NA> <NA> <NA> <NA> numeric
## 33 CONDUCENTE <NA> <NA> <NA> <NA> numeric
## 34 DEPTO <NA> <NA> <NA> <NA> <NA>
## 35 DEPTO_MCPIO numeric numeric numeric numeric numeric
## 36 DIA_EMISION numeric numeric numeric numeric numeric
## 37 filter_$ <NA> <NA> <NA> <NA> numeric
## 38 HEC_ANO numeric numeric numeric numeric numeric
## 39 HEC_AREA numeric numeric numeric numeric numeric
## 40 HEC_DEPTO <NA> <NA> <NA> <NA> <NA>
## 41 HEC_DEPTOMCPIO numeric numeric numeric numeric numeric
## 42 HEC_DIA numeric numeric numeric numeric numeric
## 43 HEC_MES numeric numeric numeric numeric numeric
## 44 HEC_RECUR_DENUN numeric numeric numeric numeric numeric
## 45 HEC_TIPAGRE numeric numeric numeric numeric numeric
## 46 INST_DENUN_HECHO numeric numeric numeric numeric numeric
## 47 INST_DONDE_DENUNCIO numeric numeric numeric numeric numeric
## 48 LEY_APLICABLE numeric numeric numeric numeric numeric
## 49 MEDIDAS_SEGURIDAD numeric numeric numeric numeric numeric
## 50 MES_EMISION numeric numeric numeric numeric numeric
## 51 NUM_HIJ_HOM numeric numeric numeric numeric numeric
## 52 NUM_HIJ_MUJ numeric numeric numeric numeric numeric
## 53 NUMERO_BOLETA <NA> <NA> <NA> <NA> <NA>
## 54 ORGANISMO_JURISDICCIONAL <NA> <NA> <NA> <NA> numeric
## 55 ORGANISMO_REMITE <NA> <NA> <NA> <NA> numeric
## 56 OTRAS_VICTIMAS numeric numeric numeric numeric numeric
## 57 QUIEN_REPORTA numeric numeric numeric numeric numeric
## 58 TIPO_DISCAQ numeric numeric numeric numeric numeric
## 59 TIPO_MEDIDA <NA> character character character character
## 60 TOTAL_HIJOS numeric numeric numeric numeric numeric
## 61 VIC_ALFAB numeric numeric numeric numeric numeric
## 62 VIC_DEDICA numeric numeric numeric numeric numeric
## 63 VIC_DISC numeric numeric numeric numeric numeric
## 64 VIC_EDAD numeric numeric numeric numeric numeric
## 65 VIC_ESCOLARIDAD numeric numeric numeric numeric numeric
## 66 VIC_EST_CIV numeric numeric numeric numeric numeric
## 67 VIC_GRUPET numeric numeric numeric numeric numeric
## 68 VIC_NACIONAL numeric numeric numeric numeric numeric
## 69 VIC_OCUP numeric numeric numeric numeric numeric
## 70 VIC_OTRAS_HOM numeric numeric numeric numeric numeric
## 71 VIC_OTRAS_MUJ numeric numeric numeric numeric numeric
## 72 VIC_OTRAS_N_AS numeric numeric numeric numeric numeric
## 73 VIC_OTRAS_N_OS numeric numeric numeric numeric numeric
## 74 VIC_REL_AGR numeric numeric numeric numeric numeric
## 75 VIC_SEXO numeric numeric numeric numeric numeric
## 76 VIC_TRABAJA numeric numeric numeric numeric numeric
## data_2018 data_2019 data_2020 data_2021 data_2022 data_2023
## 1 numeric numeric numeric numeric numeric numeric
## 2 numeric numeric numeric numeric numeric numeric
## 3 numeric numeric numeric numeric numeric numeric
## 4 numeric numeric numeric numeric numeric numeric
## 5 numeric numeric numeric numeric numeric numeric
## 6 numeric numeric numeric numeric numeric numeric
## 7 numeric numeric numeric numeric numeric numeric
## 8 numeric numeric numeric numeric numeric numeric
## 9 numeric numeric numeric numeric numeric numeric
## 10 numeric numeric numeric numeric numeric numeric
## 11 numeric numeric numeric numeric numeric numeric
## 12 numeric numeric numeric numeric numeric numeric
## 13 numeric numeric numeric numeric numeric numeric
## 14 numeric numeric numeric numeric numeric numeric
## 15 numeric numeric numeric numeric numeric numeric
## 16 numeric numeric numeric numeric numeric numeric
## 17 numeric numeric numeric numeric numeric numeric
## 18 numeric numeric numeric numeric numeric numeric
## 19 numeric numeric numeric numeric numeric numeric
## 20 numeric numeric numeric numeric numeric numeric
## 21 numeric numeric numeric numeric numeric numeric
## 22 numeric numeric numeric numeric numeric numeric
## 23 numeric numeric numeric numeric numeric numeric
## 24 numeric numeric numeric numeric numeric numeric
## 25 numeric numeric numeric numeric numeric numeric
## 26 numeric numeric numeric numeric numeric numeric
## 27 numeric numeric numeric numeric numeric numeric
## 28 numeric numeric numeric numeric numeric numeric
## 29 numeric numeric numeric numeric numeric numeric
## 30 numeric numeric numeric numeric numeric numeric
## 31 numeric numeric numeric numeric numeric numeric
## 32 numeric numeric numeric numeric numeric numeric
## 33 numeric numeric numeric numeric numeric numeric
## 34 <NA> <NA> <NA> <NA> <NA> numeric
## 35 numeric numeric numeric numeric numeric numeric
## 36 numeric numeric numeric numeric numeric numeric
## 37 <NA> <NA> <NA> <NA> <NA> <NA>
## 38 numeric numeric numeric numeric numeric numeric
## 39 numeric numeric numeric numeric numeric numeric
## 40 <NA> <NA> <NA> <NA> <NA> numeric
## 41 numeric numeric numeric numeric numeric numeric
## 42 numeric numeric numeric numeric numeric numeric
## 43 numeric numeric numeric numeric numeric numeric
## 44 numeric numeric numeric numeric numeric numeric
## 45 numeric numeric numeric numeric numeric numeric
## 46 numeric numeric numeric numeric numeric numeric
## 47 numeric numeric numeric numeric numeric numeric
## 48 numeric numeric numeric numeric numeric numeric
## 49 numeric numeric numeric numeric numeric numeric
## 50 numeric numeric numeric numeric numeric numeric
## 51 numeric numeric numeric numeric numeric numeric
## 52 numeric numeric numeric numeric numeric numeric
## 53 <NA> <NA> <NA> numeric numeric numeric
## 54 numeric numeric numeric numeric numeric numeric
## 55 numeric numeric numeric numeric numeric numeric
## 56 numeric numeric numeric numeric numeric numeric
## 57 numeric numeric numeric numeric numeric numeric
## 58 numeric numeric numeric numeric numeric numeric
## 59 character character character character character character
## 60 numeric numeric numeric numeric numeric numeric
## 61 numeric numeric numeric numeric numeric numeric
## 62 numeric numeric numeric numeric numeric numeric
## 63 numeric numeric numeric numeric numeric numeric
## 64 numeric numeric numeric numeric numeric numeric
## 65 numeric numeric numeric numeric numeric numeric
## 66 numeric numeric numeric numeric numeric numeric
## 67 numeric numeric numeric numeric numeric numeric
## 68 numeric numeric numeric numeric numeric numeric
## 69 numeric numeric numeric numeric numeric numeric
## 70 numeric numeric numeric numeric numeric numeric
## 71 numeric numeric numeric numeric numeric numeric
## 72 numeric numeric numeric numeric numeric numeric
## 73 numeric numeric numeric numeric numeric numeric
## 74 numeric numeric numeric numeric numeric numeric
## 75 numeric numeric numeric numeric numeric numeric
## 76 numeric numeric numeric numeric numeric numeric
Sin embargo se logró encontrar un patrón, todos los datasets realmente solo agregan variables al original del 2013, por lo tanto se ignoró todas las variables “extras” no incluidas dentro del dataset del 2013 y se unieron todos los datasets:
## HEC_DIA HEC_MES HEC_ANO HEC_DEPTO
## Min. : 1.00 Min. : 1.00 Min. :2000 Min. : 1.0
## 1st Qu.: 7.00 1st Qu.: 3.00 1st Qu.:2015 1st Qu.: 1.0
## Median :15.00 Median : 6.00 Median :2018 Median :10.0
## Mean :15.33 Mean : 6.19 Mean :2018 Mean : 8.9
## 3rd Qu.:23.00 3rd Qu.:10.00 3rd Qu.:2021 3rd Qu.:16.0
## Max. :31.00 Max. :12.00 Max. :2023 Max. :22.0
## NA's :16084 NA's :33585 NA's :4170 NA's :330334
## HEC_DEPTOMCPIO HEC_TIPAGRE NUMERO_BOLETA DIA_EMISION
## Min. : 101.0 Min. :1111 Min. : 0 Min. : 1.00
## 1st Qu.: 311.0 1st Qu.:1122 1st Qu.: 40 1st Qu.: 8.00
## Median :1003.0 Median :1222 Median : 95 Median :15.00
## Mean : 961.3 Mean :1603 Mean : 1057 Mean :15.32
## 3rd Qu.:1601.0 3rd Qu.:2122 3rd Qu.: 363 3rd Qu.:23.00
## Max. :2217.0 Max. :2221 Max. :17020 Max. :31.00
## NA's :1859 NA's :254152
## MES_EMISION ANO_EMISION DEPTO DEPTO_MCPIO
## Min. : 1.000 Min. :2013 Min. : 1.0 Min. : 101.0
## 1st Qu.: 4.000 1st Qu.:2015 1st Qu.: 1.0 1st Qu.: 309.0
## Median : 6.000 Median :2018 Median : 9.0 Median :1003.0
## Mean : 6.421 Mean :2018 Mean : 8.7 Mean : 958.3
## 3rd Qu.: 9.000 3rd Qu.:2021 3rd Qu.:15.0 3rd Qu.:1601.0
## Max. :12.000 Max. :2023 Max. :22.0 Max. :2217.0
## NA's :327781
## QUIEN_REPORTA VIC_SEXO VIC_EDAD TOTAL_HIJOS
## Min. :1.000 Min. :1.000 Min. : 1.00 Min. : 0.00
## 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:24.00 1st Qu.: 1.00
## Median :1.000 Median :2.000 Median :31.00 Median : 2.00
## Mean :1.031 Mean :1.878 Mean :33.63 Mean : 2.08
## 3rd Qu.:1.000 3rd Qu.:2.000 3rd Qu.:40.00 3rd Qu.: 3.00
## Max. :3.000 Max. :2.000 Max. :98.00 Max. :19.00
## NA's :4362 NA's :5635 NA's :75236
## NUM_HIJ_HOM NUM_HIJ_MUJ VIC_ALFAB VIC_ESCOLARIDAD
## Min. : 0.00 Min. : 0.00 Min. :1.000 Min. :10.0
## 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.:1.000 1st Qu.:23.0
## Median : 1.00 Median : 1.00 Median :1.000 Median :29.0
## Mean : 1.08 Mean : 1.01 Mean :1.163 Mean :29.7
## 3rd Qu.: 2.00 3rd Qu.: 2.00 3rd Qu.:1.000 3rd Qu.:39.0
## Max. :14.00 Max. :14.00 Max. :2.000 Max. :59.0
## NA's :74409 NA's :74364 NA's :3326 NA's :12268
## VIC_EST_CIV VIC_GRUPET VIC_NACIONAL VIC_TRABAJA
## Min. :1.00 Min. :1.000 Min. :1.000 Min. :1.00
## 1st Qu.:2.00 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.00
## Median :2.00 Median :1.000 Median :1.000 Median :2.00
## Mean :2.28 Mean :1.921 Mean :1.005 Mean :1.66
## 3rd Qu.:3.00 3rd Qu.:2.000 3rd Qu.:1.000 3rd Qu.:2.00
## Max. :5.00 Max. :6.000 Max. :2.000 Max. :2.00
## NA's :71927 NA's :5478 NA's :2488 NA's :2645
## VIC_OCUP VIC_DEDICA VIC_DISC TIPO_DISCAQ
## Min. : 110 Min. :1.0 Min. :1.000 Min. :1.0
## 1st Qu.:5142 1st Qu.:1.0 1st Qu.:2.000 1st Qu.:2.0
## Median :5311 Median :1.0 Median :2.000 Median :3.0
## Mean :6258 Mean :1.1 Mean :1.992 Mean :3.3
## 3rd Qu.:9111 3rd Qu.:1.0 3rd Qu.:2.000 3rd Qu.:6.0
## Max. :9998 Max. :6.0 Max. :2.000 Max. :6.0
## NA's :245216 NA's :129152 NA's :16136 NA's :363397
## VIC_REL_AGR OTRAS_VICTIMAS VIC_OTRAS_HOM VIC_OTRAS_MUJ
## Min. : 1.000 Min. : 0.00 Min. :0.00 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 0.00 1st Qu.:0.00 1st Qu.: 0.00
## Median : 2.000 Median : 0.00 Median :0.00 Median : 0.00
## Mean : 3.446 Mean : 0.85 Mean :0.09 Mean : 0.15
## 3rd Qu.: 4.000 3rd Qu.: 1.00 3rd Qu.:0.00 3rd Qu.: 0.00
## Max. :10.000 Max. :19.00 Max. :8.00 Max. :14.00
## NA's :144298 NA's :144107 NA's :144110
## VIC_OTRAS_N_OS VIC_OTRAS_N_AS HEC_AREA HEC_RECUR_DENUN
## Min. : 0.00 Min. :0.0 Min. :1.000 Min. :1.000
## 1st Qu.: 0.00 1st Qu.:0.0 1st Qu.:1.000 1st Qu.:2.000
## Median : 0.00 Median :0.0 Median :1.000 Median :2.000
## Mean : 0.32 Mean :0.3 Mean :1.426 Mean :1.884
## 3rd Qu.: 0.00 3rd Qu.:0.0 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :11.00 Max. :8.0 Max. :2.000 Max. :2.000
## NA's :144109 NA's :144106 NA's :12853 NA's :13702
## INST_DONDE_DENUNCIO AGR_SEXO AGR_EDAD AGR_ALFAB
## Min. :1.0 Min. :1.000 Min. : 7.00 Min. :1.000
## 1st Qu.:3.0 1st Qu.:1.000 1st Qu.:26.00 1st Qu.:1.000
## Median :4.0 Median :1.000 Median :33.00 Median :1.000
## Mean :3.1 Mean :1.152 Mean :34.56 Mean :1.121
## 3rd Qu.:4.0 3rd Qu.:1.000 3rd Qu.:40.00 3rd Qu.:1.000
## Max. :6.0 Max. :2.000 Max. :98.00 Max. :2.000
## NA's :329334 NA's :24014 NA's :9183
## AGR_ESCOLARIDAD AGR_EST_CIV AGR_GURPET AGR_NACIONAL
## Min. :10.00 Min. :1.00 Min. :1.000 Min. :1.000
## 1st Qu.:24.00 1st Qu.:2.00 1st Qu.:1.000 1st Qu.:1.000
## Median :29.00 Median :2.00 Median :1.000 Median :1.000
## Mean :30.26 Mean :2.28 Mean :1.941 Mean :1.004
## 3rd Qu.:39.00 3rd Qu.:3.00 3rd Qu.:2.000 3rd Qu.:1.000
## Max. :59.00 Max. :5.00 Max. :6.000 Max. :2.000
## NA's :21433 NA's :72192 NA's :6834 NA's :10559
## AGR_TRABAJA AGR_OCUP AGR_DEDICA AGRESORES_OTROS_TOTAL
## Min. :1.000 Min. : 110 Min. :1.00 Min. : 0.00
## 1st Qu.:1.000 1st Qu.:5414 1st Qu.:1.00 1st Qu.: 0.00
## Median :1.000 Median :6111 Median :1.00 Median : 0.00
## Mean :1.207 Mean :6890 Mean :1.82 Mean : 0.21
## 3rd Qu.:1.000 3rd Qu.:9111 3rd Qu.:3.00 3rd Qu.: 0.00
## Max. :2.000 Max. :9998 Max. :6.00 Max. :15.00
## NA's :14964 NA's :100602 NA's :304722 NA's :187468
## AGR_OTROS_HOM AGR_OTRAS_MUJ AGR_OTROS_N_OS AGR_OTRAS_N_AS
## Min. :0.00 Min. :0.0 Min. :0.00 Min. :0.00
## 1st Qu.:0.00 1st Qu.:0.0 1st Qu.:0.00 1st Qu.:0.00
## Median :0.00 Median :0.0 Median :0.00 Median :0.00
## Mean :0.07 Mean :0.1 Mean :0.02 Mean :0.01
## 3rd Qu.:0.00 3rd Qu.:0.0 3rd Qu.:0.00 3rd Qu.:0.00
## Max. :8.00 Max. :8.0 Max. :7.00 Max. :6.00
## NA's :187462 NA's :187462 NA's :187461 NA's :187461
## INST_DENUN_HECHO ORGANISMO_JURISDICCIONAL CONDUCENTE LEY_APLICABLE
## Min. :1.000 Min. : 1.00 Min. :1.00 Min. :1.00
## 1st Qu.:3.000 1st Qu.: 1.00 1st Qu.:1.00 1st Qu.:1.00
## Median :4.000 Median : 1.00 Median :1.00 Median :1.00
## Mean :3.443 Mean : 4.73 Mean :1.38 Mean :1.74
## 3rd Qu.:4.000 3rd Qu.: 7.00 3rd Qu.:2.00 3rd Qu.:3.00
## Max. :6.000 Max. :16.00 Max. :2.00 Max. :6.00
## NA's :240778 NA's :249954 NA's :170923
## ARTICULOVIF1 ARTICULOVIF2 ARTICULOVIF3 ARTICULOVIF4
## Min. : 1.00 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 7.00 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.: 0.00
## Median : 7.00 Median : 0.00 Median : 0.00 Median : 0.00
## Mean : 6.71 Mean : 0.35 Mean : 0.24 Mean : 0.26
## 3rd Qu.: 7.00 3rd Qu.: 0.00 3rd Qu.: 0.00 3rd Qu.: 0.00
## Max. :10.00 Max. :15.00 Max. :17.00 Max. :16.00
## NA's :244073 NA's :244881 NA's :244922 NA's :244164
## ARTICULOVCM1 ARTICULOVCM2 ARTICULOVCM3 ARTICULOVCM4
## Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0.0
## 1st Qu.: 7.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## Median : 7.0 Median : 0.0 Median : 0.0 Median : 0.0
## Mean : 6.6 Mean : 0.6 Mean : 0.2 Mean : 0.3
## 3rd Qu.: 7.0 3rd Qu.: 0.0 3rd Qu.: 0.0 3rd Qu.: 0.0
## Max. :25.0 Max. :25.0 Max. :25.0 Max. :25.0
## NA's :328046 NA's :325569 NA's :324914 NA's :324774
## ARTICULOCODPEN1 ARTICULOCODPEN2 ARTICULOCODPEN3 ARTICULOCODPEN4
## Min. : 1.0 Min. : 0 Min. : 0.0 Min. : 0.0
## 1st Qu.:203.0 1st Qu.: 0 1st Qu.: 0.0 1st Qu.: 0.0
## Median :215.0 Median : 0 Median : 0.0 Median : 0.0
## Mean :312.2 Mean : 29 Mean : 1.4 Mean : 0.5
## 3rd Qu.:482.0 3rd Qu.: 0 3rd Qu.: 0.0 3rd Qu.: 0.0
## Max. :495.0 Max. :494 Max. :257.0 Max. :205.0
## NA's :364280 NA's :364280 NA's :364280 NA's :364280
## ARTICULOTRAS1 ARTICULOTRAS2 ARTICULOTRAS3 ARTICULOTRAS4
## Min. :141.0 Min. : 0.0 Min. :0 Min. :0
## 1st Qu.:141.0 1st Qu.:142.0 1st Qu.:0 1st Qu.:0
## Median :141.0 Median :142.0 Median :0 Median :0
## Mean :147.4 Mean :113.6 Mean :0 Mean :0
## 3rd Qu.:141.0 3rd Qu.:142.0 3rd Qu.:0 3rd Qu.:0
## Max. :173.0 Max. :142.0 Max. :0 Max. :0
## NA's :365124 NA's :365124 NA's :365124 NA's :365124
## MEDIDAS_SEGURIDAD TIPO_MEDIDA ORGANISMO_REMITE
## Min. :1 Length:365129 Min. : 1.00
## 1st Qu.:1 Class :character 1st Qu.:17.00
## Median :1 Mode :character Median :17.00
## Mean :1 Mean :15.71
## 3rd Qu.:1 3rd Qu.:18.00
## Max. :2 Max. :19.00
## NA's :171957 NA's :277781
Con esto podemos decir que el dataset tiene 75 variables y 365129 observaciones.
Finalmente tenemos un dataset con las siguiente variables:
## ANO_EMISION MES_EMISION DIA_EMISION VIC_EDAD
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1.00
## 1st Qu.:2015 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:24.00
## Median :2018 Median : 6.000 Median :15.00 Median :31.00
## Mean :2018 Mean : 6.421 Mean :15.32 Mean :33.63
## 3rd Qu.:2021 3rd Qu.: 9.000 3rd Qu.:23.00 3rd Qu.:40.00
## Max. :2023 Max. :12.000 Max. :31.00 Max. :98.00
## NA's :5635
## TOTAL_HIJOS NUM_HIJ_HOM NUM_HIJ_MUJ OTRAS_VICTIMAS
## Min. : 0.00 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 1.00 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.: 0.00
## Median : 2.00 Median : 1.00 Median : 1.00 Median : 0.00
## Mean : 2.08 Mean : 1.08 Mean : 1.01 Mean : 0.85
## 3rd Qu.: 3.00 3rd Qu.: 2.00 3rd Qu.: 2.00 3rd Qu.: 1.00
## Max. :19.00 Max. :14.00 Max. :14.00 Max. :19.00
## NA's :75236 NA's :74409 NA's :74364 NA's :144298
## VIC_OTRAS_HOM VIC_OTRAS_MUJ VIC_OTRAS_N_OS VIC_OTRAS_N_AS
## Min. :0.00 Min. : 0.00 Min. : 0.00 Min. :0.0
## 1st Qu.:0.00 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.:0.0
## Median :0.00 Median : 0.00 Median : 0.00 Median :0.0
## Mean :0.09 Mean : 0.15 Mean : 0.32 Mean :0.3
## 3rd Qu.:0.00 3rd Qu.: 0.00 3rd Qu.: 0.00 3rd Qu.:0.0
## Max. :8.00 Max. :14.00 Max. :11.00 Max. :8.0
## NA's :144107 NA's :144110 NA's :144109 NA's :144106
## HEC_DIA HEC_MES HEC_ANO AGR_EDAD
## Min. : 1.00 Min. : 1.00 Min. :2000 Min. : 7.00
## 1st Qu.: 7.00 1st Qu.: 3.00 1st Qu.:2015 1st Qu.:26.00
## Median :15.00 Median : 6.00 Median :2018 Median :33.00
## Mean :15.33 Mean : 6.19 Mean :2018 Mean :34.56
## 3rd Qu.:23.00 3rd Qu.:10.00 3rd Qu.:2021 3rd Qu.:40.00
## Max. :31.00 Max. :12.00 Max. :2023 Max. :98.00
## NA's :16084 NA's :33585 NA's :4170 NA's :24014
## AGR_OTROS_HOM AGR_OTRAS_MUJ AGR_OTROS_N_OS AGR_OTRAS_N_AS
## Min. :0.00 Min. :0.0 Min. :0.00 Min. :0.00
## 1st Qu.:0.00 1st Qu.:0.0 1st Qu.:0.00 1st Qu.:0.00
## Median :0.00 Median :0.0 Median :0.00 Median :0.00
## Mean :0.07 Mean :0.1 Mean :0.02 Mean :0.01
## 3rd Qu.:0.00 3rd Qu.:0.0 3rd Qu.:0.00 3rd Qu.:0.00
## Max. :8.00 Max. :8.0 Max. :7.00 Max. :6.00
## NA's :187462 NA's :187462 NA's :187461 NA's :187461
En base al resumen se puede observar un compartamiento extraño en muchas de las variable, por ejemplo se tiene que el máximo año registrado para un denuncia es 9999, o que hay denuncias en las que la vícitima tiene 99 hijos o hijas, algo imposible. La presencia de este tipo de datos se debe a que el INE usa 9, 99 o 9999 para idncar que no se tiee información sobre la variable, por esta razón para este análisis eliminaremos todas las filas que cumplan con algunas de estas condiciones. Otro aspecto a notar es que en las columnas referentes al número de hijos se tienen bastantes valores NA’s, estos serán reemplzados por la media.
## ANO_EMISION MES_EMISION DIA_EMISION VIC_EDAD
## Min. :2013 Min. : 1.000 Min. : 1.00 Min. : 1.00
## 1st Qu.:2015 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.:24.00
## Median :2018 Median : 6.000 Median :15.00 Median :31.00
## Mean :2018 Mean : 6.421 Mean :15.32 Mean :33.59
## 3rd Qu.:2021 3rd Qu.: 9.000 3rd Qu.:23.00 3rd Qu.:40.00
## Max. :2023 Max. :12.000 Max. :31.00 Max. :98.00
## TOTAL_HIJOS NUM_HIJ_HOM NUM_HIJ_MUJ OTRAS_VICTIMAS
## Min. : 0.000 Min. : 0.000 Min. : 0.000 Min. : 0.0000
## 1st Qu.: 1.000 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.0000
## Median : 2.000 Median : 1.000 Median : 1.000 Median : 0.0000
## Mean : 2.062 Mean : 1.065 Mean : 1.012 Mean : 0.5156
## 3rd Qu.: 3.000 3rd Qu.: 1.000 3rd Qu.: 1.000 3rd Qu.: 1.0000
## Max. :19.000 Max. :14.000 Max. :14.000 Max. :19.0000
## VIC_OTRAS_HOM VIC_OTRAS_MUJ VIC_OTRAS_N_OS VIC_OTRAS_N_AS
## Min. :0.00000 Min. : 0.00000 Min. : 0.0000 Min. :0.0000
## 1st Qu.:0.00000 1st Qu.: 0.00000 1st Qu.: 0.0000 1st Qu.:0.0000
## Median :0.00000 Median : 0.00000 Median : 0.0000 Median :0.0000
## Mean :0.05429 Mean : 0.09073 Mean : 0.1951 Mean :0.1801
## 3rd Qu.:0.00000 3rd Qu.: 0.00000 3rd Qu.: 0.0000 3rd Qu.:0.0000
## Max. :8.00000 Max. :14.00000 Max. :11.0000 Max. :8.0000
## HEC_DIA HEC_MES HEC_ANO AGR_EDAD
## Min. : 1.00 Min. : 1.000 Min. :2000 Min. : 7.00
## 1st Qu.: 8.00 1st Qu.: 4.000 1st Qu.:2015 1st Qu.:27.00
## Median :15.00 Median : 6.000 Median :2018 Median :33.00
## Mean :15.31 Mean : 6.169 Mean :2018 Mean :34.45
## 3rd Qu.:23.00 3rd Qu.: 8.000 3rd Qu.:2021 3rd Qu.:40.00
## Max. :31.00 Max. :12.000 Max. :2023 Max. :98.00
## AGR_OTROS_HOM AGR_OTRAS_MUJ AGR_OTROS_N_OS AGR_OTRAS_N_AS
## Min. :0.0000 Min. :0.00000 Min. :0.000000 Min. :0.000000
## 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.000000 1st Qu.:0.000000
## Median :0.0000 Median :0.00000 Median :0.000000 Median :0.000000
## Mean :0.0364 Mean :0.05059 Mean :0.008233 Mean :0.006896
## 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.000000 3rd Qu.:0.000000
## Max. :8.0000 Max. :8.00000 Max. :7.000000 Max. :6.000000
En base a lo observado, se pued observar que hay pocas variables que
presentan datos atípicos, este tipo de datos se da en las variables de
número de hijos, pues parece ser que en la gran mayoría de denuncias la
víctima tiene 1 o 2 hijos, es raro ver familias con más de 3 hijos. Otro
aspecto importante es la edad de l vícitma, en la mayoría de casos está
ente los 20 y 40 años, sin embargo hay una víctima de 98 años y unas
cuántas mayores de 60 años. ## Resumen de las variables cualitativas
Ahora nos centraremos en las variables cualitativas, muchas de estas utilizan una escala, por eso utilizan datos numéricos. Al igual que en las vairbales cuantitativas estas usan 9, 99 o 9999 en algunas variables para indicar que no se tienen datos, por lo que esas variables simplemente las motreremos como “Ignorado”.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
La mayoría de las denuncias se hacen en el municipio de Guatemala, un
gran porcentae de las víctimas son mujeres, mientras que gran parte de
los agresores registrados son hombres. Gran parte de los agresores y las
víctimas no tienen ningún grado de escolaridad. # Relación entre
variables
Para la relación entre variables se puso énfasis en la evolución temporal, diferencias por sexo, edad y tipo de violencia. Esto con el fin de detectar comportamientos recurrentes y posibles tendencias que merecen atención desde una perspectiva preventiva.
Se busca analizar cómo ha cambiado el número de denuncias por año, para determinar tendencias a lo largo del tiempo.
Con el gráfico de la evolución anual de denuncias, se puede observa que los casos venían decayendo de 2013 a 2018, con un repunte en 2019. Siendo el año 2020 con menos denuncias de violencia intrafamiliar, el año de la pandemia. Sin embargo, a partir del 2020, la cantidad dde denuncias vuelve a subir nuevamente hasta el punto máximo siendo el año 2023 con casi 35000 denuncias.
Se analiza si existen patrones mensuales que indiquen repuntes en determinadas épocas del año.
Con base al gráfico de distribución mensual de denuncias, de los años 2013 a 2023, se observa que la cantidad de denuncias suele tener una cantidad similar por mes, con una pequeña diferencia para los meses que contarón con mayor cantidad de denuncias siendo marzo, abril, mayo, julio y agosto donde la cantidad asciende a más de 30000 denuncias. Mientras que febrero, octubre noviembre y diciembre los meses que tiene menos de 30000 denuncias. Finalmente con meses como enero y septiembre que tienen una cantidad bastante similar a 30000 denuncias.
## `summarise()` has grouped output by 'ANO_EMISION'. You can override using the
## `.groups` argument.
## `geom_smooth()` using formula = 'y ~ x'
Para observar la evolución de denuncias por mes y año se realizarón gráficos de tendencia y distribución para detallar más la información sobre denuncias en relación al tiempo.
En el gráfico de distribución de denuncia por mes y año se observa el año 2013 con tuvo varias denuncias, siendo los meses abril, mayo y julio los que mayor cantidad de denuncias tuvieron, con 3500 aproximadamente. A partir de 2014, la cantidad disminuye paulatinamente, con un único pico de 3500 denuncias en el mes de marzo de 2014. Para 2020 la cantidad de denuncias disminuyó de forma abrupta del mes de febrero a abril, por temas de pandemia. Esto se podría explicar debido al cierre de algunas instituciones y toque de queda. Sin embargo como ya se ha explicado, los casos vuelven a subir a partir de 2021.
El gráfico de tendencia temporal de denuncias describe los mismos comportamientos anteriormente planteados. Indicando con la linea azul la tendencia y dirección general de cambio a tráves de los años 2013 a 2023 suavizando las fluctuaciones. Mientras que la línea negra nos explica el cambio real de las denuncias a través del tiempo.
Se examina la composición de las denuncias según el sexo de la víctima y del agresor.
##
## 1 2
## 1 14206 30192
## 2 295475 25256
##
## 1 2
## 1 0.31996937 0.68003063
## 2 0.92125488 0.07874512
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla_sexo
## X-squared = 109470, df = 1, p-value < 2.2e-16
Se puede observar que existe una frecuencia significativamente mayor de agresores hombres en comparación con agresores mujeres,
Además, se observa que en la tabla que refuerza los datos vistos en el gráfico, que el grupo de víctimas son mujeres en un 92% de los casos. Por medio del Chi-cuadrado, que además tiene un valor de 2.2e-16 el cual es extremadamente pequeño, se determinó que la relación entre el sexo de la víctima y el agresor es altamente significativa. Lo cual nos induce a que la distribución observada sea muy poco probable que ocurra por casualidad.
Se observa cómo varía la incidencia de violencia según los rangos etarios, tanto en víctimas como en agresores. Esto permite identificar grupos especialmente vulnerables o recurrentes.
En el gráfico de la distribución de edades de víctimas y agresores, donde los datos de los agresores tienen un color azul, y el de las víctimas un color naranja; Se observa que tanto víctimas como agresores tienden a concentrarse en edades más jóvenes, de entre 13 a 38 años, con un pico alrededor de los 25 años. También se puede observar que a medida que la edad aumenta, la densidad disminuye gradualmente hasta llegar a los agresores de edades cercanas a los 95 años.
Con el Boxplot de Distribución de edad de víctima por sexo, nos indican que la mediana de las víctimas mujeres es ligeramente inferior a la de los hombres, siendo de aproximadamente 30 años mediana de edad en mujeres. Además, el IQR de las mujeres es más estrecho que el de los hombres, lo que quiere decir que las edades de las víctimas mujeres se concentran más alrededor de la mediana. En el caso de las víctimas hombres, la mediana se concentra alrededor de los 38 años.
Para los valores atípicos, se observa que en el caso de las víctimas mujeres existe una mayor variabilidad en las edades extremas del grupo.
Se observa que el grupo ladino(a) presenta el mayor número de denuncias, superando las 180,000, donde su mayor grupo de agresores, son ladinos(as). Le siguen los mayas con alrededor de 100,000 denuncias, donde de igual manera, su mismo grupo étnico tiene la mayoría de agresiones, y luego los no indicados con aproximadamente 40,000, donde ocurre lo mismo. Los grupos garífuna, otro y xinka tienen un número significativamente menor de denuncias, todos por debajo de 10,000. La gráfica resalta una disparidad en las denuncias, con una concentración notable en el grupo ladino(a) y maya, mientras que los demás grupos étnicos muestran cifras mucho más bajas.
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
Dentro de cada grupo étnico, se desglosan los porcentajes de diferentes tipos de agresión, como física, patrimonial, psicológica y sexual, o combinaciones de estas. Se observa que el grupo ladino(a) presenta la mayor variedad de tipos de agresión, con porcentajes significativos en todas las categorías. El grupo maya también muestra una diversidad de agresiones, aunque con porcentajes más bajos en comparación con el ladino(a). Los grupos no indica y otro tienen porcentajes menores de agresión, pero aún presentan una variedad de tipos. El grupo xinka, representado por el color amarillo, muestra una distribución diferente, con un porcentaje alto de agresión física y psicológica, y porcentajes más bajos en otras categorías. La gráfica resalta las diferencias en los tipos de agresión experimentados por cada grupo étnico, lo que sugiere posibles factores culturales o sociales que influyen en estas disparidades.
Se explora la relación entre el nivel educativo y la incidencia de violencia, en busca de posibles factores asociados al acceso a la educación.